Skip to content

ATAC + RNA 双组学质控报告说明文档

作者: SeekGene
时长: 38 分钟
字数: 10.6k 字
更新: 2026-04-01
阅读: 0 次
ATAC + RNA 双组学 分析指南

本文档系统性说明 SeekArcTools 软件生成的单细胞多组学质控报告(scATAC + scRNA)中各项指标的定义、计算方法与解读指南,用于评估测序与建库质量、细胞判定可靠性以及 ATAC 峰空间与转录信号的可用程度。

报告主要分为三个部分:Joint(联合分析)RNA(转录组)ATAC(染色质可及性)


Joint Metrics(联合分析指标)

本部分仅统计 RNA 与 ATAC 均通过质控且条码匹配的细胞,给出联合分析的关键指标,并展示联合细胞判定结果。

Joint Metrics 面板截图

Estimated number of cells(有效细胞数,Joint)

  • 定义: 同时在 RNA 与 ATAC 数据中被判定为“真实细胞”的条形码(barcode)数量。

  • 计算方法:

    • 单组学层面预筛
      • RNA:基于每个 barcode 的 UMI 计数(GEX count),先去除 UMI 极低的条码。
      • ATAC:基于每个 barcode 的峰内转座事件数(events in peaks)、片段总数及落峰比例,剔除明显背景条码。
    • 落峰比例一致性过滤(ATAC ) 对每个 barcode 比较“片段落峰比例(fraction of fragments in peaks)”与“基因组落峰比例(fraction of genome in peaks)”,若前者低于后者,则认为该条码更接近随机切割背景而被过滤。
    • 联合细胞判定(Joint 逻辑) 在 RNA 与 ATAC 中分别完成细胞判定,再使用 KMeans 等聚类算法联合判定细胞。
    • 多组学交集 在 RNA 与 ATAC 中分别完成以上细胞判定后,仅保留在两种组学中均被标记为“细胞”的条码交集,作为 Joint 细胞集合,其条码数量即为 Estimated number of cells。
  • 解读:

    • 该指标反映可用于多组学联合分析的有效细胞规模,是后续 WNN 聚类、peak–gene 关联、调控网络推断等的基础。
    • 该值受上机细胞数、建库效率、细胞活性、测序深度以及细胞判定参数共同影响。
    • 经验范围:常见在 6,000–15,000 之间。
    • 当显著高于实验预期时,应重点核查:
      • ATAC 落峰比例与 TSS 富集是否偏低,提示背景片段被误判为细胞;
      • Joint 细胞散点图中 Non-cells 是否大量靠近细胞聚集区。
    • 当明显低于预期时,应联合查看:
      • 细胞团聚与上机计数(实验环节);
      • Mean raw read pairs per cell 与 RNA/ATAC 各自的 Estimated number of cells;
      • 若单组学细胞数充足而 Joint 明显偏低,常见原因是两组学在同一条码上的信息量差异较大或其中一侧建库失败。

GEX Median genes per cell(RNA 中位基因数,Joint)

  • 定义: 在 Joint 细胞集合中,每个细胞检测到的基因数的中位数。

  • 计算方法:

    • 在 RNA 表达矩阵(filtered_feature_bc_matrix)中,仅保留 Joint 判定的细胞条码。
    • 对每个细胞,统计其 UMI 计数 > 0 的基因数量,得到按细胞为单位的“基因数向量”。
    • 取该向量的中位数,得到 GEX Median genes per cell。
    • 若命令行启用了 --include-introns,则表达矩阵中包含 intron reads 的贡献,相应会提高基因检出数与 UMI 总数。
  • 解读:

    • 指标反映转录组信号在单细胞层面的复杂度与检测灵敏度。
    • 数值受样本类型、转录活性、测序深度、是否计入内含子(introns)、过滤策略等多因素影响。
    • 经验上,多数哺乳动物组织样本在本产品下的取值常见为 800–2,500。
    • 偏低时的判断思路:
      • 若同时伴随 Mean Reads per Cell (RNA) 明显偏低,多由深度不足导致;
      • 若深度充分但基因数偏低,需排查:RNA 质量与降解、细胞状态(如大量静息或受损细胞)、过严的细胞过滤阈值;
      • 若 Joint 细胞数偏少,可能 Joint 只保留部分高质量条码,使中位基因数相对提高,此时需综合 Joint/RNA 两端细胞规模进行解释。

ATAC Median high-quality fragments per cell(ATAC 中位高质量片段数,Joint)

  • 定义: 在 Joint 细胞集合中,每个细胞的高质量 ATAC 片段数(fragments)的中位数。

  • 计算方法:

    • 从 ATAC 的 fragments 文件与比对结果中,筛选满足以下条件的读对:
      • 比对到核基因组(排除线粒体及其它非核 contig);
      • 比对质量 MAPQ ≥ 30;
      • 非嵌合(non-chimeric)、非重复(non-duplicate)。这些片段记为“高质量 fragments”。
    • 对每个 Joint 细胞条码,统计其高质量 fragments 数量,形成按细胞为单位的向量。
    • 取该向量的中位数,得到 ATAC Median high-quality fragments per cell。
  • 解读:

    • 该指标体现ATAC 信号在单细胞层面的有效信息量,直接影响峰检测、 motif 富集、peak–gene 关联等下游分析的稳定性。
    • 在多组学实验中,一般认为> 2,000是较好的水平,不同样本类型该指标范围不同。
    • 当该指标偏低时,建议联查:
      • Mean raw read pairs per cell (ATAC):若深度本身即不足,则优先考虑增加测序或重新建库;
      • Fraction of high-quality fragments in cells (ATAC):若高质量 fragments 在细胞内占比偏低,则提示碎片主要来自背景或非细胞条码;
      • Fraction of transposition events in peaks in cells (ATAC) 与 TSS enrichment score (ATAC):若这两项同时偏低,通常意味着染色质结构瓦解或 Tn5 条件异常。

Feature linkages detected / Linked genes / Linked peaks(特征关联统计,Joint)

  • 定义:

    • Feature linkages detected:在 Joint 细胞上,对 ATAC 峰可及性与邻近基因表达进行相关性分析后,满足给定显著性阈值(例如 significance ≥ 5)的峰–基因及峰–峰关联对的总数。
    • Linked genes:至少与一个峰存在显著 peak–gene 关联的基因数量。
    • Linked peaks:至少与一个基因存在显著 peak–gene 关联的峰数量。
  • 计算方法:

    • 以 SeekArcTools 输出的联合 Seurat/Signac 对象为基础,在 ATAC assay 中获取峰可及性矩阵,在 RNA assay 中获取表达矩阵。
    • 对每个基因,限定一个 TSS 上下游给定范围的候选峰集合,构建局部的峰–基因配对集合。
    • 对每个候选对,在 Joint 细胞维度上计算峰可及性与基因表达的相关性,并对 GC 含量、峰长度、可及性基线等偏置因子做回归校正,得到标准化的 Z 分数与对应的显著性度量。
    • 以预设阈值(如 Z 分数或 –log10(p))筛选出显著配对,对其进行计数:
      • 所有显著配对数目 = Feature linkages detected;
      • 覆盖到的不同基因数 = Linked genes;
      • 覆盖到的不同峰数 = Linked peaks。
  • 解读:

    • 这三个指标综合反映多组学联合数据支持的“调控边”数量与覆盖广度。
    • 指标大小与以下因素高度相关:
      • Joint 细胞数量与其 ATAC/RNA 信息量;
      • 峰集合质量与分辨率;
      • 样本内异质性及分群结构(均一样本本身差异有限时,链路数会有限)。
    • 数值较低时,不应简单理解为“数据一定不好”,而应结合:
      • Estimated number of cells (Joint) 与 per-cell 信息量判断是否因样本规模或深度受限;
      • peak 与基因注释是否覆盖了感兴趣的功能区域;
      • 生物学假设中是否预期存在大规模重塑的调控网络。

Joint Cell Calling Visualization(联合细胞判定可视化,Joint)

  • 定义: 在二维坐标空间中,以 ATAC 事件数(如 events in peaks)与 RNA UMI 计数为坐标轴,对所有条码进行可视化,使用不同颜色区分被判定为“细胞”与“非细胞”的条码。
  • 计算方法:
    • 对所有条码,计算:
      • x 轴:ATAC 侧的 events-in-peaks 或等价转座事件计数;
      • y 轴:RNA 侧的 UMI 计数。
    • 对上述二维数据进行 log10 变换,并对用于绘图的点进行必要的采样,以增强可视化可读性。
    • 对保留条码的 log10(UMI) 与 log10(events in peaks) 进行去重与压缩后,使用 KMeans 等聚类算法将条码分为两群,以均值较高的一群作为“细胞簇”,另一群视为“背景簇”。
    • 当指定 --min_atac_count 与 --min_gex_count 时,则采用硬阈值:UMI ≥ min_gex_count 且 events ≥ min_atac_count 的条码直接作为“细胞”。
    • 使用联合细胞判定结果对条码着色,并在图中展示 Joint 细胞与背景条码的分布。
  • 解读:
    • 图形用于直观评估 Joint 细胞判定边界是否合理:
      • 理想情况下,细胞条码在右上区域聚集,并与左下方背景条码形成清晰分界;
      • 若 Non-cells 在右上区域大量混杂,则细胞判定阈值可能过宽,或 ATAC 落峰比例较低导致 Joint 判定难以区分背景。
    • 该可视化应与 ATAC 模块的 Peak targeting、Fraction of high-quality fragments in cells、Fraction of transposition events in peaks in cells 以及 RNA 侧的 Fraction Reads in Cells 联合解读,以综合判断条码分类的可靠性。

聚类可视化(ATAC/GEX,Joint)

  • 定义: 对联合有效细胞分别基于 ATAC 与 RNA(GEX)特征构建的二维嵌入图(如 tSNE1/2),用聚类标签着色展示细胞群。

  • 计算方法: 在联合细胞集合上,分别从 ATAC 特征与 RNA 特征构建近邻图并聚类,再将二维嵌入按 cluster 着色绘图。

  • 解读:

    • 正常情况下,二维空间中应呈现良好的细胞聚类效果:cluster 分离清晰、团簇紧致。
    • 如果 ATAC 或 GEX 聚类区分不明显,可能提示细胞间差异度较低或数据存在异常;但也需要考虑生物学异质性本就较低的样本(如培养细胞系、分选获得的特定单一细胞类型等)。

深度分布可视化(ATAC/GEX,Joint)

  • 定义: 在 ATAC 与 GEX 的二维嵌入图(如 tSNE1/2)上展示深度分布:RNA 文库展示每个细胞的 UMI count 分布,ATAC 文库展示每个细胞的转座事件数(events)分布。
  • 计算方法: 在联合有效细胞集合上,分别计算 ATAC 深度(每细胞 events)与 RNA 深度(每细胞 UMI),对数变换后映射到对应嵌入图并按数值着色。
  • 解读: 正常情况下,ATAC 与 GEX 文库的深度分布相对均匀;如果存在大团低 UMI count 或低 events 的细胞群,可能提示被判定为“细胞”的条码中混入了较多非真实细胞,需要结合其他质控指标综合判断。

RNA Metrics(转录组指标)

本部分展示单细胞转录组文库的测序质量、比对情况及关键定量指标, 用于评估 RNA 数据的整体质量和可用性,并辅助判断其是否满足下游分析需求。

Sequencing(测序质量,RNA)

RNA Sequencing 面板截图

Number of Reads(有效读取对总数,RNA Sequencing)

  • 定义: 经 fastp 等数据预处理质控后保留下来的 RNA 成对 reads(read pairs)总数。

  • 计算方法: 对原始 RNA 测序数据进行接头去除、质量剪切和长度过滤后,计数所有通过质控的 reads pairs。

  • 解读:

    • 指标反映样本在质控后可用于后续分析的有效测序数据规模,是下游分析的基础输入。
    • 通常需结合有效 Barcode 比例、细胞内 Reads 占比及测序饱和度综合判断,避免仅以测序量评估数据有效性。

Valid Barcode(有效条码比例,RNA Sequencing)

  • 定义: 在质控后 RNA reads 中,条码序列(barcode)能被纠错后成功匹配到白名单的 read pairs 所占比例。
  • 计算方法:
    • 从 reads 中解析出 barcode 序列。
    • 依据软件参数决定是否允许 1 个碱基错配以及是否丢弃可纠错为多个白名单条码的 reads。
    • 统计成功匹配到白名单的 read pairs 数量,并除以 Number of Reads。
  • 解读:
    • 该指标反映 Barcode 合成质量、测序准确性以及白名单匹配情况。建议Valid Barcode ≥ 75%
    • 当该指标偏低时,建议结合 Barcode Q30 值及细胞内 Reads 占比一并分析,以区分测序质量问题与文库结构或白名单不匹配的影响。

Sequencing Saturation(测序饱和度,RNA )

  • 定义: 评估当前测序深度下,文库中分子被重复测序的程度。
  • 计算方法: 基于用于 UMI 计数的 reads 计算,定义为 Sequencing Saturation = 1 −(唯一 UMI 数 / 可用于 UMI 计数的 reads 数)。
  • 解读:
    • 指标衡量测序深度与文库复杂度之间的关系。
    • 当饱和度过低时,说明仍有大量未被采样到的分子;当饱和度过高时,新增 reads 大多为重复分子,对信息增益有限。
    • 在实际评估中,应结合 Median Genes per Cell (RNA Cells) 和 Median UMI Counts per Cell (RNA Cells) 的变化趋势,判断现有深度是否满足研究需求。

Too Short (过短 Reads 比例,RNA)

  • 定义: 在接头(adapter)去除后,由于 reads 长度低于最小保留阈值而被过滤掉的 reads 所占比例。
  • 计算方法: 对 RNA 测序数据进行接头去除后,统计因序列长度低于预设最小长度阈值而被判定为过短并过滤的 reads 数量,并除以 Number of Reads。
  • 解读:
    • 该指标反映 RNA 文库中插入片段长度及结构完整性情况。
    • 当该比例偏高时,通常提示接头残留较多、插入片段偏短或文库构建过程中片段降解,导致有效 reads 在去接头后无法保留,可能进一步影响后续比对效率与定量分析结果。

Q30 Bases in Barcode (Barcode Q30 碱基比例,RNA)

  • 定义: Barcode 序列中,碱基测序质量值(Phred score)达到 Q30 及以上的碱基所占比例。
  • 计算方法: 统计 Barcode 序列中 Phred 质量值 ≥ 30 的碱基数量,并除以 Barcode 序列的总碱基数量。
  • 解读:
    • 该指标反映 Barcode 序列的测序质量水平。建议Q30 Bases in Barcode ≥ 80%
    • 较高的 Q30 比例通常表示 Barcode 读取准确性较高,有助于提高有效 Barcode 识别率;当该指标偏低时,可能影响有效细胞的识别数量。

Q30 Bases in UMI (UMI Q30 碱基比例,RNA)

  • 定义: UMI 序列中,碱基测序质量值(Phred score)达到 Q30 及以上的碱基所占比例。
  • 计算方法: 统计 UMI 序列中 Phred 质量值 ≥ 30 的碱基数量,并除以 UMI 序列的总碱基数量。
  • 解读:
    • 该指标反映 UMI 序列的测序质量水平。建议Q30 Bases in UMI ≥ 80%
    • 较高的 Q30 比例通常表示 UMI 识别更为准确,有助于提高分子去重的准确性,从而提升转录本定量结果的可靠性。

Mapping(比对情况,RNA)

RNA Sequencing 面板截图

Reads Mapped to Genome(基因组比对率,RNA Mapping)

  • 定义: 在参与比对的 RNA reads 中,成功比对到参考基因组的 reads 所占比例。
  • 计算方法: 在完成 Barcode 识别及过短 Reads 过滤后,统计实际参与比对的 RNA Reads 数量;其中成功比对到参考基因组的 Reads 数量(包括唯一比对和多重比对)除以参与比对的 Reads 总数,得到基因组比对率。
  • 解读:
    • 该指标反映有效 RNA Reads 与参考基因组的匹配情况及文库特异性。
    • 较高的比对率通常表示样本来源明确且参考基因组选择合理;当比对率偏低时,可能与样本污染、低复杂度序列比例偏高或参考基因组版本不匹配有关,通常需结合唯一比对率及外显子/内含子比对分布综合判断比对质量。

Reads Mapped Confidently to Genome(唯一高置信比对率,RNA Mapping)

  • 定义: 参与比对的 RNA reads 中,能够以高置信度唯一比对到单一基因组位置的 reads 所占比例。

  • 计算方法: 在比对结果中筛选满足设定映射质量阈值且仅存在一个最佳比对位置的 reads 数量,并除以进入比对的 reads 总数。

  • 解读:

    • 指标反映可用于可靠表达定量分析的 reads 占比。
    • 当该比例明显低于总体比对率时,多提示重复序列比例偏高、参考基因组复杂区域较多或测序质量不足,应与 Exon/Intron/Intergenic 分布一并分析。

Reads Mapped to Exonic Regions (外显子比对率,RNA)

  • 定义: 在成功比对到参考基因组的 RNA Reads 中,比对至已注释外显子区域的 Reads 所占比例。
  • 计算方法: 统计所有比对到外显子注释区域的 Reads 数量,并除以成功比对到参考基因组的 Reads 数。
  • 解读:
    • 该指标反映转录组文库中成熟 mRNA 信号的富集程度。
    • 较高的外显子比对率通常表示文库以成熟转录本为主,有利于基因表达定量分析。

Reads Mapped to Intronic Regions (内含子比对率,RNA)

  • 定义: 在成功比对到参考基因组的 RNA Reads 中,比对至已注释内含子区域的 Reads 所占比例。
  • 计算方法: 统计所有比对到内含子注释区域的 Reads 数量,并除以成功比对到参考基因组的 Reads 数。
  • 解读:
    • 该指标反映未剪接或核内 RNA 信号的占比。
    • 其数值受物种、样本类型及建库方式影响,通常需与外显子比对率结合解读,以区分成熟 mRNA 信号与核内转录信号。

Reads Mapped to Intergenic Regions (基因间区比对率,RNA)

  • 定义: 在成功比对到参考基因组的 RNA Reads 中,比对至已注释基因间区(intergenic regions)的 Reads 所占比例。
  • 计算方法: 统计所有比对到基因间区注释区域的 Reads 数量,并除以成功比对到参考基因组的 Reads 数。
  • 解读:
    • 该指标反映 Reads 落在已知基因注释区域之外的比例。
    • 数值升高可能与基因组注释不完整、参考注释版本不匹配、非编码转录本或非特异性比对有关。通常需结合总体比对率以及外显子/内含子比对分布等指标综合判断其来源。

Cells(细胞统计,RNA)

RNA Sequencing 面板截图

Estimated Number of Cells(有效细胞数,RNA Cells)

  • 定义: 在 RNA 数据中被判定为“真实细胞”的条形码(barcode)数量。
  • 计算方法: 基于每个 barcode 的 RNA UMI 计数等信号,经基础过滤与聚类/阈值分离后得到 RNA 侧“细胞集合”,并统计其条码数。
  • 解读: 该指标与 Joint 的 Estimated number of cells 一致。

Fraction Reads in Cells(细胞内 reads 比例,RNA Cells)

  • 定义: 成功比对到参考基因组的 RNA reads 中,来源于被判定为“细胞条码”的 reads 所占比例。

  • 计算方法: 在所有基因组比对 reads 中,统计分配到有效细胞条码上的 reads 数量,并除以比对 reads 总数。

  • 解读:

    • 该指标衡量测序信号中真实细胞来源 reads 的占比,是评估环境 RNA、空液滴和细胞破裂影响程度的重要参数。
    • 较高比例表明大部分 reads 来自真实细胞;比例偏低时,应结合样本制备(裂解程度)与上样浓度进行排查。

Mean Reads per Cell (平均每个细胞的 Reads 数,RNA)

  • 定义: 在被识别为有效细胞的 Barcode 中,平均每个细胞分配到的测序 Reads 数量。
  • 计算方法: 将所有来源于有效细胞 Barcode 的 Reads 数量相加,并除以有效细胞的总数。
  • 解读:
    • 该指标反映测序深度在单细胞层面的分配情况。
    • 数值越高通常表示单个细胞获得的测序信息越充分,有助于提高基因表达定量的稳定性,但需结合测序饱和度和文库复杂度综合判断。

Median Genes per Cell (中位基因数,RNA)

  • 定义: 有效细胞中,每个细胞被检测到的基因数量的中位数。
  • 计算方法: 统计所有有效细胞中每个细胞具有至少一个 UMI 计数的基因数,并对该分布取中位数。
  • 解读:
    • 该指标反映 RNA 文库的检测灵敏度和复杂度。
    • 数值越高通常表示文库质量较好或测序深度较高,从而能够检测到更多低表达基因。

Median UMI Counts per Cell (每个细胞的 UMI 数中位数,RNA)

  • 定义: 在被识别为有效细胞的 Barcode 中,每个细胞检测到的唯一 UMI 数量的中位数。
  • 计算方法: 对所有有效细胞分别统计其唯一 UMI 数量(每个 UMI 仅计数一次),并对该分布取中位数。
  • 解读:
    • 该指标反映单细胞层面转录分子捕获数量的典型水平。
    • 数值越高通常表示单个细胞中可用于定量的转录分子信息越丰富,但需结合测序深度和文库复杂度综合评估。

Total Genes Detected (检测到的总基因数,RNA)

  • 定义: 在所有被识别为有效细胞的 Barcode 中,检测到的不同基因的总数量。
  • 计算方法: 在所有有效细胞中,对经 UMI 去重后的基因进行汇总统计,得到被检测到的不同基因数量。
  • 解读:
    • 指标反映转录组文库在整体层面对基因表达的覆盖广度。
    • 数值越高通常表示在当前数据中能够检测到的基因种类越丰富,但需结合细胞数量、测序深度及样本类型综合解读。

Sequencing Depth and Saturation Analysis(测序深度与饱和度分析,RNA)

fig9fig10

Sequencing Saturation(测序深度与重复率关系,RNA)

  • 定义: 基于对 RNA 测序数据进行下采样处理,展示在不同测序深度条件下,Sequencing Saturation 随测序数据投入变化的趋势。横轴表示下采样后对应的表达信息量水平(以单细胞层面的基因检测情况为参照),纵轴表示测序饱和度,用于反映重复测序分子的比例。
  • 解读:
    • 该图用于评估测序深度与文库复杂度之间的关系。
    • 随着测序深度增加,测序饱和度通常逐步升高,表示新增 reads 中重复分子的比例增加;当曲线趋于平缓时,说明进一步增加测序深度对获取新的转录分子信息的边际收益有限。
    • 该趋势可与基因数或 UMI 数的下采样曲线结合解读,用于综合判断当前测序深度是否已接近文库复杂度上限。

Median Genes per Cell (测序深度与基因检测能力,RNA)

  • 定义: 基于对 RNA 测序数据进行下采样处理,展示在不同 Mean Reads per Cell 条件下,单细胞 Median Genes per Cell 的变化关系。横轴表示每个细胞的平均测序 reads 数,纵轴表示对应条件下检测到的基因数中位数。
  • 解读:
    • 该图用于评估测序深度对单细胞转录组基因检测能力的影响及其饱和趋势。
    • 一般而言,随着每个细胞分配的测序 reads 增加,能够检测到的基因数随之上升;当曲线逐渐趋于平缓时,说明新增测序 reads 对基因检测数量的增益开始减弱。
    • 该趋势可用于判断当前测序深度是否已接近平台期,为是否需要进一步加深测序提供参考。

ATAC Metrics(染色质可及性指标)

ATAC 模块是评估 ATAC 文库的测序质量,比对质量、有效片段信息量、peak与 TSS 信号形态,以及细胞识别与peak靶向效率,是判断“染色质开放信号是否可信”的核心。

Sequencing(测序质量,ATAC)

Joint Metrics 面板截图

Sequenced read pairs(测序读对总数,ATAC)

  • 定义: ATAC 文库中,经fastp等数据预处理质控后,可用于后续条码解析与比对的 reads pair 总数。
  • 计算方法: 对 ATAC 原始数据进行接头和固定序列处理、长度与质量过滤后,统计仍成对存在的 reads 数量。
  • 解读: 该指标为 ATAC 文库可用 reads 的总数,应与 Valid barcodes、Percent duplicates 等指标综合分析。

Valid barcodes(有效 Barcode 比例,ATAC)

  • 定义: 在质控后 ATAC reads 中,条码序列(barcode)能被纠错后成功匹配到白名单的 read pairs 所占比例。
  • 计算方法:
    • 从 reads 中解析出 barcode 序列。
    • 依据软件参数决定是否允许 1 个碱基错配以及是否丢弃可纠错为多个白名单条码的 reads。
    • 统计成功匹配到白名单的 read pairs 数量,并除以 Number of Reads。
  • 解读:
    • 该指标反映 Barcode 合成质量、测序准确性以及白名单匹配情况。建议 Valid barcodes ≥ 75%
    • 当该指标偏低时,建议结合 Barcode Q30 值及细胞内 Reads 占比一并分析,以区分测序质量问题与文库结构或白名单不匹配的影响。

Too Short (过短 Reads 比例,ATAC)

  • 定义: 在接头(adapter)去除后,由于 reads 长度低于最小保留阈值而被过滤掉的 reads 所占比例。
  • 计算方法: 对 ATAC 测序数据进行接头去除后,统计因序列长度低于预设最小长度阈值而被判定为过短并过滤的 reads 数量,并除以 Sequenced read pairs(或等价的有效 reads pair 总数口径)。
  • 解读:
    • 该指标反映 ATAC 文库中插入片段长度及结构完整性情况。
    • 当该比例偏高时,通常提示接头残留较多、插入片段偏短或文库构建过程中片段降解,导致有效 reads 在去接头后无法保留,可能进一步影响后续比对效率与峰相关指标的稳定性。

Q30 bases in barcode(Barcode Q30 碱基比例,ATAC)

  • 定义: Barcode 序列中,碱基测序质量值(Phred score)达到 Q30 及以上的碱基所占比例。
  • 计算方法: 统计 Barcode 序列中 Phred 质量值 ≥ 30 的碱基数量,并除以 Barcode 序列的总碱基数量。
  • 解读:
    • 该指标反映 Barcode 序列的测序质量水平。建议 Q30 Bases in Barcode ≥ 80%
    • 较高的 Q30 比例通常表示 Barcode 读取准确性较高,有助于提高有效 Barcode 识别率。

Q30 bases in read 1 (Read1 Q30 碱基比例,ATAC)

  • 定义: Read 1 中,碱基测序质量值(Phred score)达到 Q30 及以上的碱基所占比例。
  • 计算方法: 统计 Read 1 中 Phred 质量值 ≥ 30 的碱基数量,并除以 Read 1 序列的总碱基数量。
  • 解读:
    • 该指标反映 Read 1 的测序质量水平,由于Read1 包含固定的linker ME 序列,会让整体测序质量有所降低, 建议 Q30 bases in read 1 ≥ 50%
    • 较高的 Q30 比例通常表示 read 1 读取准确性较高,偏低可能推高 Unmapped read pairs 与后续峰相关指标的不稳定性。

Q30 bases in read 2(Read2 Q30 碱基比例,ATAC)

  • 定义: Read 2 中,碱基测序质量值(Phred score)达到 Q30 及以上的碱基所占比例。
  • 计算方法: 统计 Read 2 中 Phred 质量值 ≥ 30 的碱基数量,并除以 Read 2 序列的总碱基数量。
  • 解读:
    • 该指标反映 Read 2 的测序质量水平。建议 Q30 bases in read 2 ≥ 80%
    • 较高的 Q30 比例通常表示 read 2 读取准确性较高,偏低可能推高 Unmapped read pairs 与后续峰相关指标的不稳定性。

Percent duplicates (重复率,ATAC)

  • 定义: 被判定为 PCR duplicates 的高质量 read pairs 占比,用于衡量测序饱和与文库复杂度。
  • 计算方法: 在限定“高质量 read pairs”(valid barcode、核基因组、MAPQ ≥ 30、非嵌合等)后,将其中片段两端坐标一致的重复 read pairs 计为 duplicates,计算:Percent duplicates = duplicates / 高质量 read pairs。
  • 解读:
    • 重复率越高,说明新增的读段里越多是在重复已有分子;继续加深测序带来的“新增 unique fragments”会越来越少。
    • 如何联动判读:首先看 Median Unique Fragments per Cell 曲线:若曲线已接近平台且 duplicates 高,则为典型“饱和”,继续加深意义不大;其次看 Median high-quality fragments per cell、Fraction of transposition events in peaks in cells、TSS enrichment score 等核心指标。duplicates 高但核心指标好,通常只是测序深度足够;duplicates 高且核心指标仍然差,则提示“低复杂度”文库,存在大量无效 reads 的深度堆积。

Median Unique Fragments per Cell(每细胞中位唯一片段曲线,ATAC)

Joint Metrics 面板截图
  • 定义: 在不同下采样深度下,每细胞“唯一片段(unique fragments)”数量的中位数曲线,用于评估加深测序的边际收益。
  • 计算方法: 对 read pairs 进行不同深度的下采样;在每个深度下按去重后的 fragments(并通常结合高质量过滤口径)计算每细胞片段数分布并取中位数,绘制中位数随深度变化的曲线。
  • 解读:
    • 曲线接近平台:说明测序趋于饱和,加深测序主要增加重复读段而非新增信息。
    • 曲线仍显著上升:说明仍可通过加深测序获得更多唯一片段(注意前提是 Confidently mapped read pairs、TSS enrichment score、Fraction of transposition events in peaks in cells 等质量指标合理)。

Cells and Peaks(细胞与峰,ATAC)

Joint Metrics 面板截图

Mean raw read pairs per cell(每细胞原始reads pairs 均值,ATAC )

  • 定义: 在被判定为 ATAC 有效细胞的条码集合中,每个细胞获得的原始 read pairs 平均数。

  • 计算方法: 将所有有效barcode的 read pairs 数量除以有效细胞数目。

  • 解读:

    • 指标衡量深度在细胞层面的分配程度。建议不小于 25,000
    • 当该值过低时,可导致 fragment 数和 peaks 检出能力下降。

Fraction of high-quality fragments in cells(细胞内高质量片段比例,ATAC)

  • 定义: 对所有高质量的 fragments 而言,其中属于判断的有效细胞中的 fragments 所占比例。
  • 计算方法:
    • 在比对结果中筛选所有高质量 fragments(核来源、MAPQ ≥ 30、非嵌合、非重复);
    • 在这些 fragments 中,统计属于有效细胞集合的 fragments 数量,并除以所有高质量 fragments 数量,即 Fraction = HQ_in_cells / HQ_total。
  • 解读:
    • 用来衡量“可用 ATAC 片段是否主要来自有效细胞”。建议大于30%,且不小于15%,认为高于30%是合理状态
    • 数值越高,说明背景(空滴/游离 DNA)占比越低、细胞判定更稳
    • 一般认为值高于 40% 为较理想状态;明显低于该水平时,说明大量高质量片段被分配给背景条码或空液滴,需关注核制备、死细胞比例以及细胞判定阈值。

Fraction of transposition events in peaks in cells(峰内转座事件比例,ATAC Cells)

  • 定义: 细胞内转座事件(或片段)中,落在已调用 peaks 区间内的比例。
  • 计算方法:
    • 构建去重后 fragments 与峰区间的重叠关系,确定每个 fragment 是否位于峰内;
    • 对细胞条码内的所有转座事件计数,并统计其中位于峰内的转座事件数;
    • 用峰内事件数除以细胞条码内事件总数。
  • 解读:
    • 该指标直接反映转座事件在“功能性开放区域”中的富集程度。建议大于20%,且不小于10%,认为高于20%是合理状态
    • 常用经验阈值:≥ 25%;当 < 10% 时,通常提示实验或分析环节存在显著问题,包括但不限于:
      • 死细胞比例高导致随机切割占主导;
      • Tn5 条件不当(切割不足或过度);
      • 峰调用参数设置不合理,导致真实峰集合不充分或过于宽泛;
      • 测序深度不足导致峰检测不稳定。

Median high-quality fragments per cell(每细胞高质量片段中位值,ATAC )

  • 定义: ATAC 有效细胞集合中,每个细胞的高质量 fragments 数中位值。

  • 计算方法: 与 Joint 中同名指标类似,统计每细胞高质量 fragments 数后取中位数。

  • 解读:

    • 是评估 ATAC 单细胞信息量的核心指标之一。
    • 在细胞数充足时,若该值始终无法达到期望水平,应从深度、落峰比例与 TSS 富集等多维度综合排查。

Median High-Quality Fragments Overlapping Peaks per Cell(每细胞高质量片段落峰的中位值,ATAC)

  • 定义: ATAC 有效细胞中,每细胞“与 peaks 重叠的高质量 fragments”数量的中位值。
  • 计算方法: 在细胞条码集合内,统计每细胞 High-Quality Fragments 中与 peaks 有重叠的片段数并取中位数。
  • 解读:
    • 将“High-Quality Fragments”与“落峰有效性(peaks overlap)”结合后的指标。
    • 偏低:可能由 High-Quality Fragments 本身偏低、peaks 质量差/数量少、或背景随机切割高导致落峰比例低引起。
    • 联动判断:与 Median High-Quality Fragments per Cell、Fraction of transposition events in peaks in cells、Peak targeting plot 同步评估更可靠。

Peak Targeting Plot(峰靶向散点图,ATAC)

Joint Metrics 面板截图
  • 定义: 横轴为每个 barcode 的 fragments 数,纵轴为该 barcode 片段中与 peaks 重叠的比例,并标注 cells 与 non-cells。
  • 计算方法: 对每个 barcode 统计 fragments 总数与落峰比例并绘图。
  • 解读:
    • 横坐标是每个barcode中检测到的片段数量,纵坐标显示有多少比例的片段与peak重叠。
    • 被确定为细胞的barcode应该位于这张图的右上方,即细胞中检测到的片段数量多,并且这些片段大多数与peak重叠。
    • 如果发现barcode有很多片段,但是大多数片段与peak不重叠,说明染色质已经失去高级结构,转座酶在随机切割染色质,说明这些barcode来自于死细胞。一个理想的样品应该在细胞和非细胞的两端有良好的分离。

Targeting and TSS (峰与TSS靶向效率,ATAC)

Joint Metrics 面板截图

Number of peaks(峰总数,ATAC )

  • 定义: 检测到的 ATAC 峰(peaks)总数。

  • 计算方法:

    • 使用 MACS3 等峰调用工具在去重后的 fragments 上进行峰检测;
    • 过滤线粒体和非主要 contig 上的峰,并去除重叠或重复记录;
    • 计数得到的峰数量。
  • 解读:

    • 峰总数受样本复杂度、测序深度、Peak calling 参数与阈值直接影响。
    • 峰数过少时,应优先评估:Median high-quality fragments per cell、Fraction of transposition events in peaks in cells 与 TSS enrichment score 是否同时偏低。

Fraction of genome in peaks(峰覆盖基因组比例,ATAC )

  • 定义: 峰区域覆盖的碱基数占主要染色体总碱基数的比例。

  • 计算方法: 对峰集合中所有区间长度求和,并除以主要染色体总长度。

  • 解读:

    • 指标衡量ATAC 信号在基因组上的“覆盖面”。
    • 文献与经验通常建议该值不高于 75%;显著高于该水平时,往往提示峰调用阈值过宽、噪音信号被大量纳入峰,或样本染色质广泛处于开放状态(如高比例死亡细胞)。

TSS enrichment score(TSS 富集分数,ATAC )

  • 定义: 表征 ATAC 片段在转录起始位点(Transcription Start Site, TSS)附近的富集程度。

  • 计算方法:

    • 窗口定义:以所有注释已知TSS为中心,向上下游各延伸1,000个碱基,形成总长2,000 bp的窗口。

    • 信号累积:统计每个碱基位置上的Tn5酶切割位点数。

    • 用窗口内最小信号归一化,取曲线最大值 为 TSS enrichment score。

  • 解读:

    • 指标是评估ATAC 文库质量与染色质结构是否保留的重要量化指标。
    • 该指标有组织类型样本的偏好。
    • 人、鼠新鲜样本中通常期望 TSS enrichment score > 4 较好,冻存样本>3 较好;当 < 3 时,多与死细胞、核膜破裂或 Tn5 条件异常密切相关,也可能源于参考基因组或 TSS 注释版本不匹配。

Fraction of high-quality fragments overlapping TSS (高质量片段与TSS区域重叠的比例,ATAC )

  • 定义: 高质量 fragments 中,与 TSS 区域发生重叠的片段所占比例。

  • 计算方法: 类似于“落峰比例”的计算,对高质量 fragments 与 TSS 区间进行重叠统计,并与高质量 fragments 总数形成比例。

  • 解读: 用于验证有效片段是否集中在 TSS 区域。建议不低于 15%

Fraction of High-Quality Fragments Overlapping Peaks(高质量片段与 peaks 重叠比例,ATAC)

  • 定义: 高质量 fragments 中,与 peaks 区间发生重叠的片段所占比例。
  • 计算方法: 类似于“落峰比例”的计算,对高质量 fragments 与 peaks 区间进行重叠统计,并与高质量 fragments 总数形成比例。
  • 解读:
    • 用于验证有效片段是否集中在峰区。建议大于 20%
    • 这两项指标与 TSS enrichment score 和 Fraction of transposition events in peaks in cells 互为补充,用于说明高质量 fragments 是否主要集中于功能性调控区域。
    • 若多项指标同时偏低,通常说明 ATAC 信号缺乏结构化的富集模式,难以支撑可靠的下游调控推断。

Enrichment around TSS(TSS 周边富集曲线,ATAC)

Joint Metrics 面板截图
  • 定义: 聚合展示所有注释 TSS 周围(±1000bp)切割位点信号的曲线图,是 TSS enrichment score 的直观形态呈现。
  • 计算方法: 同 TSS enrichment score 的聚合口径,将窗口内每碱基信号绘制成曲线(通常含背景归一化)。
  • 解读:
    • 文库构建成功的标志是中心尖峰明显,中心尖峰右侧常见小肩峰(+1 nucleosome),两侧平滑下降。曲线的最大值对应 TSS enrichment score;尖峰越高,分数越大。
    • 异常形态:
      • 尖峰位置明显偏移 0:常见于 TSS 注释或参考版本不匹配;
      • 曲线噪声很大/锯齿明显:多为样本有效 events 信息量低;
      • 曲线平坦或中心不突出:提示背景随机切割高、核结构破坏或建库条件异常;需结合 Fraction of transposition events in peaks in cells、targeting 与 non-nuclear/duplicates 指标综合判断。

Mapping (比对质量,ATAC)

Confidently Mapped Read Pairs(高置信核基因组比对率,ATAC)

  • 定义: reads pairs 中以高置信度比对到核基因组的比例。
  • 计算方法: Confidently mapped read pairs = Q30MappedPaired / Total(只统计 MAPQ ≥ 30 的成对比对)。
  • 解读:
    • 一般建议Confidently mapped read pairs ≥ 70%
    • 偏低:优先排查参考基因组版本/物种、索引构建、污染(微生物/混样)、以及 reads 质量(Q30、N 含量)。

Unmapped Read Pairs(未比对读对比例,ATAC)

  • 定义: 未成对成功比对基因组的 read pairs 比例。
  • 计算方法: Unmapped read pairs = 1 - (MappedPaired / Total)
  • 解读: 偏高常见于参考不匹配、低复杂度/接头残留、reads 质量差。

Non-nuclear Read Pairs(非核读对比例,ATAC)

  • 定义: 比对到非核区域(比如线粒体)的 read pairs 比例。

  • 计算方法: non-nuclear pairs / all mapped pairs。

  • 解读: 偏高多提示细胞破裂/死亡或核提取质量差,常与 TSS enrichment score 下降、Peak targeting plot 变差同步出现。

Fragmentation(片段结构,ATAC)

Insert Size Distribution(插入片段长度分布,ATAC)

Joint Metrics 面板截图
  • 定义: ATAC 片段(fragment)插入长度的分布曲线,用于展示无核小体、单核小体及多核小体片段的比例和周期性结构。

  • 计算方法: 基于比对结果统计每个 fragment 的插入长度,绘制长度直方图和光滑曲线。

  • 解读:

    • 理想的 ATAC 实验中,曲线应在 < 200bp 处出现明显峰值(开放染色质 + 无核小体)并在约 200–600bp 区间呈现逐渐降低的单/双核小体峰及约 10.5bp 的锯齿状周期。
    • 若曲线平滑无明显峰或呈异常单峰,常提示染色质结构破坏或片段长度分布异常(如过度剪切或大片段丢失)。
0 条评论·0 条回复